近年来,基于变压器的模型已导致自然语言处理的语言建模取得重大进步。但是,他们需要大量的数据接受(预先)训练,并且除英语以外的语言中缺乏语料库。最近,一些计划提出了从自动网络爬行获得的多语言数据集。但是,西班牙语的结果具有重要的缺点,因为与其他语言相比,它们要么太小,要么呈现出较低的质量,从而获得了次优的清洁和重复数据删除。在本文中,我们介绍了Escorpius,这是一种西班牙爬行语料库,该语料库是从附近的1 pb普通爬网数据中获得的。它是西班牙语中最广泛的语料库,其提取,纯化和重复数据删除的质量水平。我们的数据策划过程涉及一条新型的高度平行清洁管道,并包含一系列重复数据删除机制,以确保文档和段落边界的完整性。此外,我们同时维护源网页URL和WARC Shard Origin URL,以抱怨欧盟法规。 Escorpius已根据CC BY-NC-ND 4.0许可发布,可在HuggingFace上获得。
translated by 谷歌翻译